Міністерство освіти і науки України
Національний університет “Львівська політехніка”
Кафедра“Інформаційні системи і мережі”
TITLE \* MERGEFORMAT Перетворення тексту з твердих носіїв в електронний вигляд за допомогою системи оптичного розпізнавання символів FineReader
Методичні вказівки до лабораторної роботи
з курсу KEYWORDS \* MERGEFORMAT "Системи автоматизованого перекладу"
для студентів спеціальності SUBJECT \* MERGEFORMAT "Прикладна лінгвістика" базового напрямку 6.030.500 "Філологія"
Затверджено на засіданні кафедри
“Інформаційні системи і мережі”
Протокол № _____
від “___” __________ SAVEDATE \@ "yyyy" \* MERGEFORMAT 2006 року
Львів - 2006
TITLE \* MERGEFORMAT Перетворення тексту з твердих носіїв в електронний вигляд за допомогою системи оптичного розпізнавання символів FineReader. Методичні вказівки до лабораторної роботи з курсу KEYWORDS \* MERGEFORMAT "Системи автоматизованого перекладу" для студентів спеціальності SUBJECT \* MERGEFORMAT "Прикладна лінгвістика" базового напрямку 6.030.500 "Філологія", AUTHOR \* MERGEFORMAT Голощук Р.О., Вовк О.Б., Львів, Вид-во Національного університету “Львівська політехніка”, DATE \@ "YYYY" \* MERGEFORMAT 20076.
Укладачі AUTHOR \* MERGEFORMAT Голощук Р.О., ст. викладач,
Вовк О.Б., асистент
Відповідальний за випуск Пасічник В.В., д.т.н., проф.
Мета роботи. Ознайомитися та на практиці засвоїти основні принципи введення та перетворення текстової інформації з твердого носія в електронний вигляд з допомогою системи оптичного розпізнавання символів FineReader.
Теоретичні відомості
Будь-який текст, перш ніж його перекладати, потрібно ввести в комп’ютер. Для введення та перетворення текстової інформації з твердого носія в електронний вигляд використовують сканер та професійні спеціалізовані пакети призначені для оптичного розпізнавання символів (OCR, Otical Character Recognition).
Класична система для оптичного розпізнавання символів (OCRcистема) – це комп’ютерна система, яка дозволяє перетворювати отримане зі сканера графічне зображення сторінок в електронний текстовий файл, який може бути потім опрацьований у текстовому редакторі та системі автоматизованого перекладу.
Для подальшого відновлення слід зберігати у тексті перекладу формат (зовнішній вигляд) оригіналу: шрифти, виділення, розбиття на таблиці, абзаци і колонки, структури заголовків та інші елементи оформлення (технологія Rich Text Format).
Багато текстів містять малюнки, формули, фрагменти програм, які не перекладаються, але супроводжуються коментарями і повинні бути доступними для перегляду під час процесу перекладу. Малюнки і креслення містять підписи, які потрібно включати в склад перекладного матеріалу, а на кінцевій стадії повертати на попереднє місце. Ручне виконання таких операцій приводить до помилок і зниження продуктивності.
Після закінчення цього етапу в режимі діалогу стають доступними для перегляду і редагування вікна вхідного тексту і зображень.
Центральною проблемою розпізнавання є ідентифікація символу [3]. У перших системах для оптичного розпізнавання символів використовувався наступний алгоритм. Усім символам алфавіту ставились у відповідність матриці-еталони, які задавали розміщення темних та світлих крапок. Кожний символ зісканованого документу порівнювався з усіма еталонами. Якщо він виявлявся досить подібним на один із них (тобто відсоток співпадіння крапок зісканованого символу з крапками еталону є більше деякого порогового значення), то вважалося, що розпізнавання символу відбулося – гарантовано або умовно, в залежності від степеня співпадіння. в протилежному випадку, система для оптичного розпізнавання символів приймала рішення про неможливість ідентифікації.
Такі системи називаються шрифтовими системами (англійський термін multifont). Основна перевага алгоритму, який в них використовується — це простота реалізації. Однак його суттєвий недолік полягає в тому, що існують десятки різноманітних шрифтів, і система для оптич...